Analyse der besonders großen Abweichungen

Das ARIMA(2,0,2)(2,0,2)7 [Arbeitstag, Temperatur] hat große Probleme an und nach Feiertagen. Ziel ist es, diese Abweichungen durch weitere Merkmale zu verringern.

ARIMA(2,0,2)(2,0,2)7 [Arbeitstag, Temperatur]

Große Abweichungen an und um Feiertage

An Feiertagen ist der Stromverbrauch außergewöhnlich niedrig und die wöchentliche Saisonalität wird unterbrochen. Dennoch handelt es sich nicht um Ausreißer im klassischen (rein mathematischen) Sinne, da die Abweichung einer gewissen Systematik folgen. Außerdem hat das Modell nicht nur Probleme an Feiertagen selbst, sondern auch unmittelbar danach. Wenn die außergewöhnlich niedrigen Stromverbräuche als Eingangsvariablen für die Regressionsgleichung folgender Tage verwendet werden, verzerrt sich auch die Vorhersage für folgende Tage. Dadurch kommt es zu starken Abweichungen an einem, zwei, sieben und vierzehn Tagen nach einem Feiertag.

An Feiertagen

Am ersten Tag nach Feiertagen

Am zweiten Tag nach Feiertagen

Am siebten Tag nach Feiertagen

Am vierzehnten Tag nach Feiertagen

Verbesserung durch Merkmal für Feiertage

Es soll im Folgenden versucht werden, diese Abweichungen durch Ausgleichskoeffizienten zu kompensieren.

Verbesserung durch Merkmal für Feiertage

Dafür wird zunächst ein Indikator für Feiertage eingefügt. Dadurch lässt sich allerdings keine Verbesserung erzielen. Die Abweichung an und um die Feiertage herum wird dadurch allerdings kaum reduziert. Insgesamt verbessert sich der MAPE nicht. Allerdings hat sich das Modell sehr viel besser an die Trainingsdaten angepasst, die Log-Likelihood steigt auf 4.644 and und das AIC fällt auf -9.264. Es kann hier also von einer leichten Überanpassung ausgegangen werden. Der MAPE verbessert sich sehr wahrscheinlich deshalb nicht, weil das Modell Feiertage selbst bisher relativ gut erkennen konnte. Das Problem ergibt sich eher aus den Feiertagen als Eingabeparameter für die Vorhersage weiterer Tage.

Verbesserung durch Merkmal für vergangene Feiertage (1)

Es wird nun der erste Ausgleichskoeffizient für Feiertage eingefügt. Das zugrunde liegende Merkmal wird an Tagen nach einem Feiertag auf 1 gesetzt. Der dafür im ARIMA-Modell enthaltene Koeffizient soll den geringeren Verbrauch von Feiertagen ausgleichen. Dadurch verbessert sich das Modell auf den ersten Blick, da MAPE, Log-Likelihood und AIC etwas besser sind. Es handelt sich hierbei aber vermutlich um eine Überanpassung. Wie im Modell davor und im nächsten Modell erkennbar, führen beide Merkmale einzeln zu keiner Verbesserung.

Verbesserung durch Merkmal für vergangene Feiertage (nur 1)

In diesem Modell wird nur der Indikator für vergangene Feiertage (ohne den Indikator für Feiertage selbst) verwendet. Das Modell lässt sich dadurch allerdings nicht verbessern. Es ist also davon auszugehen, dass sich der Effekt der einzelnen Merkmale in Grenzen hält.

Verbesserung durch Merkmal für vergangene Feiertage (2)

Wenn zusätzlich zum Indikator für Feiertage zwei zusätzliche Koeffizienten für jeweils die nächsten beiden Tage zum Modell hinzugefügt werden, dann lässt sich das Modell nicht verbessern. Im Vergleich zu den vorherigen Modellen verschlechtern sich auch AIC und Log-Likelihood wieder.

Verbesserung durch Merkmal für vergangene Feiertage (7)

Das Modell lässt sich auch mit einem zusätzlichen Ausgleichskoeffizienten für den siebten Tag nach einem Feiertag nicht mehr verbessern.

Verbesserung durch Merkmal für vergangene Feiertage (14)

Letztlich wird noch ein Ausgleichskoeffizient für den vierzehnten Tag nach einem Feiertag hinzugefügt. Auch hierdurch ist keine weitere Verbesserung zu erzielen.

Ergebnis

Stellenweise lässt sich das ARIMA-Modell durch die Ausgleichskoeffizienten verbessern, die Verbesserungen sind allerdings gering ausgeprägt und führen teilweise auch zu Überanpassungen. Ein wesentliches Problem ist, dass es nur etwa 30 Feiertage mit dem entsprechenden Problem in den Daten gibt. Bei insgesamt 2.557 Datensätzen sind daher sehr wenig Beispieldaten vorhanden, anhand derer der Algorithmus Daten generalisieren kann. Warum auf Oversampling verzichtet wird, ist in der Ausarbeitung genauer dargestellt. Vereinfacht gesagt lässt sich die Zeitreihe nicht ohne weiteres durch zusätzliche Beobachtungen erweitern, ohne das Wesen und den Verlauf der Zeitreihe zu ändern (Saisonalitäten, Autokorrelationen, Zusammenhänge mit anderen Merkmalen etc.). Unabhängig davon tritt das Problem nicht bei allen Feiertagen auf, folgt beispielsweise ein arbeitsfreier Tag auf den Feiertag ist das Problem sehr viel geringer, hier wären dann Ausgleichskoeffizienten für die Ausgleichskoeffizienten nötig. Der Grundgedankt, alle möglichen Sonderfälle durch eigene Koeffizienten abzudecken, widerspricht allerdings dem Grundgedanken des maschinellen Lernens: Der Generalisierung von Informationen aus vorhandenen Daten. Weiterhin ist zu erwähnen, dass das Modell sowohl die Baseline als auch das Erfolgskriterium bereits (mit Abstand) schlagen kann. Aus diesen Gründen wird vom Einsatz der hier beschriebenen Merkmale abgesehen.